Topic Adaptation for the Automatic Translation of News Articles (Adaptation thématique pour la traduction automatique de dépêches de presse) [in French]

نویسندگان

  • Souhir Gahbiche-Braham
  • Hélène Bonneau-Maynard
  • François Yvon
چکیده

Résumé. L’utilisation de méthodes statistiques en traduction automatique (TA) implique l’exploitation de gros corpus parallèles représentatifs de la tâche de traduction visée. La relative rareté de ces ressources fait que la question de l’adaptation au domaine est une problématique centrale en TA. Dans cet article, une étude portant sur l’adaptation thématique des données journalistiques issues d’une même source est proposée. Dans notre approche, chaque phrase d’un document est traduite avec le système de traduction approprié (c.-à-d. spécifique au thème dominant dans la phrase). Deux scénarios de traduction sont étudiés : (a) une classification manuelle, reposant sur la codification IPTC ; (b) une classification automatique. Nos expériences montrent que le scénario (b) conduit à des meilleures performances (à l’aune des métriques automatiques), que le scénario (a). L’approche la meilleure pour la métrique BLEU semble toutefois consister à ne pas réaliser d’adaptation ; on observe toutefois qu’adapter permet de lever certaines ambiguïtés sémantiques. Abstract. Statistical approaches used in machine translation (MT) require the availability of large parallel corpora for the task at hand. The relative scarcity of thes resources makes domain adaptation a central issue in MT. In this paper, a study of thematic adaptation for News texts is presented. All data are produced by the same source : News articles. In our approach, each sentence is translated with the appropriate translation system (specific to the dominant theme for the sentence). Two machine translation scenarios are considered : (a) a manual classification, based on IPTC codification ; (b) an automatic classification. Our experiments show that scenario (b) leads to better performance (in terms of automatic metrics) than scenario (a) . The best approach for the BLEU metric however seems to dispense with adaptation alltogether. Nonetheless, we observe that domain adaptation sometimes resolves some semantic ambiguities .

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Post-édition statistique pour l'adaptation aux domaines de spécialité en traduction automatique (Statistical Post-Editing of Machine Translation for Domain Adaptation) [in French]

RÉSUMÉ Cet article présente une approche de post-édition statistique pour adapter aux domaines de spécialité des systèmes de traduction automatique génériques. En utilisant les traductions produites par ces systèmes, alignées avec leur traduction de référence, un modèle de post-édition basé sur un alignement sous-phrastique est construit. Les expériences menées entre le français et l’anglais po...

متن کامل

Système de collecte de données Web pour analyser l'émergence et la propagation de maladies animales

Résumé : La veille en santé animale, et notamment la détection précoce d’émergences au niveau mondial d’agents pathogènes, est l’un des moyens permettant de prévenir l’introduction en France de dangers sanitaires (Paquet et al., 2006). Cet article présente une plateforme dédiée à la collecte de données (dépêches) utiles pour la veille automatique. Le recueil des dépêches s’appuie sur des requêt...

متن کامل

Driven Decoding for machine translation (Vers un décodage guidé pour la traduction automatique) [in French]

Driven Decoding for machine translation Recently, the concept of driven decoding (DD), has been sucessfully applied to the automatic speech recognition (speech-to-text) task : an auxiliary transcription guide the decoding process. There is a strong interest in applying this concept to statistical machine translation (SMT). This paper presents our approach on this topic. Our first attempt in dri...

متن کامل

Anaphora Resolution for Machine Translation (Résolution d'anaphores et traitement des pronoms en traduction automatique à base de règles) [in French]

RÉSUMÉ La traduction des pronoms est l’un des problèmes actuels majeurs en traduction automatique. Étant donné que les pronoms ne transmettent pas assez de contenu sémantique en euxmêmes, leur traitement automatique implique la résolution des anaphores. La recherche en résolution des anaphores s’intéresse à établir le lien entre les entités sans contenu lexical (potentiellement des syntagmes no...

متن کامل

Study of Domain Dependant Multi-Polarity Words for Document Level Opinion Mining (Influence des marqueurs multi-polaires dépendant du domaine pour la fouille d'opinion au niveau du texte) [in French]

Résumé. Les méthodes de détection automatique de l’opinion dans des textes s’appuient sur l’association d’une polarité d’opinion aux mots des textes, par lexique ou par apprentissage. Or, certains mots ont des polarités qui peuvent varier selon le domaine thématique du texte. Nous proposons dans cet article une étude des mots ou groupes de mots marqueurs d’opinion au niveau du texte et qui ont ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014